iT邦幫忙

2025 iThome 鐵人賽

DAY 20
1

▋前言


在過去幾天,我們對 AMI、Switchboard、IEMOCAP 三個資料集做了資料探勘。今天,我們要把這些經驗整合起來,形成一個「資料 → 前處理 → 模型訓練 → 應用」的完整流程,並比較它們的互補性。

▋內容


資料到 AI 的典型流程

  1. 資料探勘 (EDA)

    • 確認資料品質、長度、分布。

    • 避免浪費時間在錯誤或低品質資料上。

  2. 資料清理與前處理

    • AMI:長會議 → 需要分段處理;高比例重疊語音。

    • Switchboard:口語化嚴重 → 需處理 disfluency、語助詞。

    • IEMOCAP:情緒標籤不均衡 → 需平衡資料分布。

  3. 特徵提取 (Feature Extraction)

    • 使用 Mel-Spectrogram、MFCC 或 Wav2Vec embedding。

    • 針對情緒 (IEMOCAP) 還需 prosody 特徵。

  4. 模型訓練或推論

    • STT:Whisper(對比 Wav2Vec)。

    • Speaker Diarization:NeMo + clustering。

    • Speaker Recognition:Pyannote (X-vector)。

    • SER:SpeechBrain + IEMOCAP。

  5. 評估與迭代

    • WER (Word Error Rate):STT。

    • DER (Diarization Error Rate):AMI、Switchboard。

    • Emotion Accuracy:IEMOCAP。

  6. 應用與落地

    • 教師:獲得逐字稿 + 學生情緒曲線。

    • 學生:回顧課程、檢視學習情緒。

    • 平台:量化課程品質,提升差異化服務。

三個資料集的互補性

  1. AMI:強調「多人會議」與重疊語音,檢驗系統在高難度場景下的穩健性。

  2. Switchboard:聚焦「雙人自然對話」,驗證系統在日常口語、disfluency 下的適應能力。

  3. IEMOCAP:專注「情緒辨識」,補足前兩者缺乏的情緒標註,讓系統能提供課堂氛圍分析。

結論
這三個資料集相輔相成,讓我們能從 語音準確率 → 語者辨識 → 情緒分析 全面驗證 AI 系統的效能。

▋下回預告


接下來,我們會深入討論 模型實驗設計,例如如何設定 baseline、如何挑選評估指標。

▋參考資料


AMI Corpus
Switchboard
IEMOCAP


上一篇
Day 19 IEMOCAP 資料探勘
下一篇
Day 21 模型實驗設計概念與架構規劃
系列文
AI語音辨識系統:結合聲紋分析與情緒識別23
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言